Il existe une croyance tenace dans les organisations : anonymiser une donnée suffit à neutraliser le risque. Retirer le nom, masquer le matricule, et le tour est joué.
Le
collaborateur disparaît. Le risque aussi. La réalité est toute autre.
Le K-anonymity problem, c'est quoi?
Le concept a été formalisé en 1998 par la chercheuse en informatique Latanya Sweeney. Son principe est le suivant : une donnée n'est réellement anonyme que si au moins un certain nombre d'individus (k) partagent exactement le même profil d'attributs dans la base considérée.
En dessous de ce
seuil, la personne est seule dans sa catégorie. Elle est identifiable, y compris sans son nom.
L.Sweeney l'a démontré empiriquement en "ré-identifiant" le
dossier médical anonymisé du gouverneur du Massachusetts à partir de trois
attributs publics : le code postal, la date de naissance, et le sexe. Trois
variables. Aucune sensible prise isolément. Combinées, elles conduisaient à un seul individu.
C'est la logique de l'intersection. Ce n'est pas une
variable qui identifie, mais leur croisement.
Pourquoi les RH sont particulièrement
exposées
Les bases de données médicales ou démographiques à grande
échelle offrent une protection naturelle : la population est large, les profils
se répètent, le k reste élevé. En entreprise, cette protection peut vite disparaître.
La population est petite. Elle est connue. Les
collaborateurs se côtoient, connaissent l'ancienneté des uns, le statut des
autres, les absences récentes, les situations familiales. Le contexte informel
fait une partie du travail d'identification avant même que quiconque
n'interroge une base de données.
Prenez une équipe de huit personnes. Croisez le niveau
hiérarchique, l'ancienneté approximative, le type d'absence, et la période
concernée. Il ne reste souvent plus qu'un seul individu possible. Le k
est égal à 1. L'anonymisation n'existe pas.
Ce phénomène s'aggrave avec la granularité des données RH. Plus le profil est précis, plus le risque de ré-identification augmente. Or en matière RH, c'est la précision qui est importante. C'est l'histoire du collaborateur, la prise en compte de son parcours spécifique qui permet l'aide à la décision, pas la généralité.
Imaginons maintenant une RH qui, pour préparer un entretien disciplinaire entre le dossier d'un collaborateur en se contentant d'enlever son nom.
Ou un manager qui demande, comment traiter un "refus de mobilité pour un collaborateur dont la mission vient de se terminer".
Les informations intégrées dans le système ne sont plus anonymisées. Plus précisément, elles courent un risque de ré-identification.
Les 3 formes de réidentification
- La ré-identification directe est la plus visible. Un profil suffisamment détaillé permet à un tiers informé de mettre un nom sur un cas, sans accès aux données sources. Elle ne nécessite aucune compétence technique, seulement de la connaissance du terrain. C'est la ré-identification dont l'occurrence est la plus probable en entreprise.
- La ré-identification par accumulation est plus insidieuse. Aucune requête isolée ne permet l'identification. Mais plusieurs interrogations successives, posées par des utilisateurs différents sur une période donnée, convergent vers le même profil implicite. L'information n'a pas été révélée, elle a été distillée.
- La ré-identification par inférence négative est la moins intuitive. Si un système répond différemment selon que le cas est présent ou absent dans sa base, un utilisateur attentif peut procéder par élimination. Il teste des profils hypothétiques et observe les variations de réponse. C'est une attaque par inférence qui ne nécessite aucun accès direct aux données, seulement de la méthode.
Quel est le risque concret finalement ?
Le RGPD exclut de son champ d'application les données "rendues
anonymes de telle manière que la personne concernée n'est plus
identifiable" (considérant 26). Mais il ne définit pas ce que
"anonyme" signifie. C'est le G29 — groupe des autorités européennes
de protection des données, devenu aujourd'hui le Comité européen de la
protection des données — qui a comblé ce vide dans son avis 05/2014 sur les
techniques d'anonymisation.
Pour échapper à la règlementation posée par le RGPD, une anonymisation doit
satisfaire trois critères cumulatifs :
1. Impossibilité d'individualisation : il ne doit pas être possible d'isoler un individu dans la
base, même partiellement.
2. Impossibilité de corrélation: il ne doit pas être possible de relier entre eux deux
enregistrements concernant la même personne, que ce soit dans la même base ou
dans des bases distinctes.
3. Impossibilité d'inférence: il ne doit pas être possible de déduire, avec une probabilité significative, une information sur un individu à partir des données restantes.
Ces trois critères sont cumulatifs. Un seul défaillant
suffit à requalifier la donnée en donnée personnelle, avec toutes les
obligations du RGPD qui s'y attachent.
Dans des populations RH de taille réduite, le troisième critère est rarement satisfait. Et dans les environnements où une IA puise dans des cas réels pour formuler ses recommandations, le deuxième l'est encore moins.
Et la conséquence ?
Atteinte RGPD, violation du secret professionnel, violation du secret médical, fuite de données, diffamation, atteinte à la réputation...la liste est longue des risques juridiques induits par l'introduction de données personnelles "sans le nom" dans une IA, notamment si elle est générative.
Anonymiser ne protège pas, cela déplace simplement le risque, souvent sans que personne ne s’en rende compte.
La vraie question n’est donc pas :“avons-nous bien supprimé les noms ?”Mais :“avons-nous réellement rendu impossible l’identification ?”
Dans la majorité des usages RH actuels de l’IA, la réponse reste encore non.
Et ce “non” engage bien plus que la conformité.
Il engage la responsabilité du manager, la confiance des équipes… et la solidité même des décisions prises.
Car une décision construite sur une donnée faussement anonyme n’est pas seulement risquée.
Elle est fragile. Et une décision fragile, en entreprise, finit toujours par se voir.
Ce contenu vous concerne?
ABM FORMATION SAS accompagne les managers et leurs organisations avec des diagnostics, des formations et des interventions sur mesure : www.abmformation.fr
Prenez contact via le formulaire du blog ou directement par mail : annebilard@abmformation.fr
Pour d'autres contenus sur l'IA (en vidéo cette fois) c'est ici :
👇
https://abmformation.blogspot.com/2026/04/pourquoi-lia-ne-connait-pas-vraiment.html

Aucun commentaire:
Enregistrer un commentaire